LoginSignup
3
4

More than 3 years have passed since last update.

【H2O Driverless AI】超高級ツールと無料ツールAutoML比較してみた【VARISTA】

Posted at

はじめに⛵️

みなさんAutoMLは試したことありますか?
最近では様々なツールが登場してきているAutoMLですが、次の二つのAutoMLツールの比較をしていこうと思います。

H2O Driverless AI
H2O Driverless AI | https://www.h2o.ai/products/h2o-driverless-ai/
スクリーンショット 2020-06-15 16.19.14.png

VARISTA
VARISTA.ai | https://www.varista.ai/
スクリーンショット 2020-06-15 16.20.27.png

ぶっちゃけ何が違う?🤔

なぜ、こんな記事を書いたかというと
一方のDriverlessAIさん、なんと利用するのに1ユーザー/月 何十万円〜というハイスペック高級ツールなんです。
それにくらべ、varista.aiさん、これまた驚きの無料でつかえます。※有料プランもあります。フリーミアム形態です。

この二つのツール、何ができて、何ができないの??
モデルの精度はどうなの?といった疑問にお答えすべく、検証してみました。

検証内容☕️

UIや機能の比較に加え、タイタニック(二値分類)、住宅価格予測(回帰予測)のスコアの比較も行ってみようかと思います。

サービス比較

DriverlessAI VARISTA
実行環境 ローカル(LINUX/Win/Mac) クラウド
Pricing 有料のみ 無料/有料

機能比較

DriverlessAI VARISTA
プロジェクト ⭕️ ⭕️
チームワークスペース機能 ?(見当たらない) ⭕️(有料プラン)
自動学習 ⭕️ ⭕️
データ可視化 ⭕️ ⭕️
MLI/レポート作成 ⭕️

ML比較

機械学習の自動化

スクリーンショット 2020-06-15 16.27.05.png
スクリーンショット 2020-06-15 16.43.18.png

DriverlessAI VARISTA
不要な列の削除 ⭕️ ⭕️
欠損地の補完 ⭕️ ⭕️
ハイパーパラメータ調整 ⭕️ ⭕️
特徴量エンジニアリング ⭕️ ⭕️
アルゴリズム選定 ⭕️ ⭕️
モデル評価 ⭕️ ⭕️
学習の詳細設定 エキスパートセッティングで数百のパラメータが設定可能 学習レベル(5段階)、kFold、HoldoutSize、RandomSeed

こうみるとメインの学習機能でやってくることとしてはそこまで大差ない気がします🤔
細かい詳細パラメータを自分で設定できるのはエンジニアにとっては嬉しい機能ですね。
逆に、知識がなくてもシンプルにわかりやすく使えるのも、メリットかもしれません。

対応アルゴリズム

DriverlessAI VARISTA
DecisionTree/RandomForest ⭕️ ⭕️
FTRL ⭕️
LinearModel ⭕️ ⭕️
IsolationForest(ExtraTree) ⭕️ ⭕️
LightGBM ⭕️ ⭕️
XGBoost ⭕️ ⭕️
RuleFit ⭕️
TensorFlow ⭕️
CatBoost ⭕️
AdaBoost ⭕️

データ詳細確認

スクリーンショット 2020-06-15 16.30.36.png
スクリーンショット 2020-06-15 16.31.23.png

DriverlessAI VARISTA
列の型 ⭕️ ⭕️
欠損数 ⭕️ ⭕️
平均値 ⭕️ ⭕️
最小値 ⭕️ ⭕️
最大値 ⭕️ ⭕️
標準偏差 ⭕️ ⭕️
ユニーク数 ⭕️ ⭕️
最頻値の出現回数 ⭕️
最頻値の値 ⭕️

データ可視化機能

スクリーンショット 2020-06-15 16.40.59.png
スクリーンショット 2020-06-15 16.41.06.png

DriverlessAI VARISTA
ヒストグラム ⭕️ ⭕️
ボックスプロット ⭕️ ⭕️
外れ値の確認 ⭕️
列の相関関係 ⭕️ ⭕️
クラスターの可視化 ⭕️
ヒートマップ ⭕️ ⭕️
欠損値ヒートマップ ⭕️
変換のリコメンド ⭕️

学習結果画面の内容の違い

DriverlessAI VARISTA
スコア ⭕️ ⭕️
FeatureImportance ⭕️ ⭕️
Predictions Plot(回帰) ⭕️ ⭕️
Residuals Plot(回帰) ⭕️
ROC曲線(分類) ⭕️
Confusion Matrix(分類) ⭕️ ⭕️
Threshold Optimization(分類) ⭕️

各ツール、MLI、詳細表示などでより細かな学習結果を確認することができます。

精度

それぞれ、以下のパラメータを使用しました。
設定によってはまだまだ精度が改善できると思いますので、あくまで参考程度に✋

タイタニック
スクリーンショット 2020-06-15 17.32.40.png
スクリーンショット 2020-06-15 17.01.39.png

住宅価格
スクリーンショット 2020-06-15 17.32.25.png
スクリーンショット 2020-06-15 17.01.39.png

サブミッション

タイタニック
スクリーンショット 2020-06-15 17.43.53.png
スクリーンショット 2020-06-15 17.45.16.png

住宅価格
スクリーンショット 2020-06-15 17.46.13.png
スクリーンショット 2020-06-15 18.17.36.png

スコア比較

DriverlessAI VARISTA
タイタニック(CategorizationAccuracy) 0.79425 0.80382🎉
住宅価格(RMSLE) 0.12685🎉 0.12824

おわり🤗

最終的なスコアに関してはそこまで大きな差はありませんでした。
設定を変えることでどちらも、より高いスコアを目指せると思います。
その際に、より専門的で細かい設定ができるのがDriverlessAIで、シンプルなのがvaristaだったとおもいます。

まとめ

DriverlessAI: 超多機能、MLの知識があるエンジニア向け
VARISTA: シンプル且高精度、知識がなくても利用できる

参考
H2O Driverless AI
H2O Driverless AI | https://www.h2o.ai/products/h2o-driverless-ai/
VARISTA
VARISTA.ai | https://www.varista.ai/

3
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
4